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[目的 /意义 ] 缺乏 科学 数据 元 数据 知识 与 高 效 易 用 的 元 数据 创建 服务 阻碍 了 科研 人 员 科 学 数据 的 共享 与 重用 ， 


综合 型 科学 数据 仓储 因数 据 存 储量 大 \ 面 向 用 户 广 ,其 所 提供 的 元 数据 创建 服务 对 改善 上 述 困境 具有 借鉴 意义 。 


| 方法/ 过程] VA Springer Nature 和 Scientific Data 推荐 的 6 个 


务 的 实现 模式 两 个 方面 对 其 元 数据 创建 服务 进行 调研 


综合 


分 析 , 归 纳 其 服务 特点 与 先进 经 验 。[ 


型 科学 数据 仓储 为 样本 ,从 服务 的 内 容 构成 与 服 
结果 /结论 ] 综合 型 


科学 数据 仓储 所 提供 的 元 数据 创建 服务 具有 沿袭 传统 并 有 所 创新 力求 简洁 并 凸显 自身 特色 、 重 视 元 数据 知识 普 
及 与 能 力 转化 、 充 分 保证 数据 民主 、 注 重 关联 资源 组 织 并 鼓励 数据 引用 五 大 特点 ,其 服务 模式 既 重 视 服 务 的 易 用 


Soe 
词 : 科学 数据 ”元 数据 创建 服务 ”综合 型 仓储 
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性 \ 有 用 性 又 注重 元 数据 知识 普及 ,对 我 国 图 情 机 构 数据 仓储 建设 及 元 数据 创建 服务 开展 具有 重要 启示 和 借鉴 意 


需要 强 有 力 的 技术 支持 但 更 


措 址 数据 的 元 数据 的 完备 性 和 系统 性 。 数 据 集 发 布 是 
从 侍 数 据 集 及 其 相关 属性 以 使 其 可 供用 户 社区 访问 的 
过 者 .作为 数据 集 发 布 的 起 点 ,用 户 借助 平台 内 元 数 
据 倒 建 服务 主动 提交 其 发 布 所 需 的 元 数据 ,其 服务 水 
平局 质量 不 仅 影响 科研 人 员 发 布 并 共享 其 数据 集 的 意 
愿 ,而 且 直 接 决 定 所 发 布 数据 集 的 元 数据 质量 。 元 数 
据 作为 数据 仓储 所 提供 的 数据 浏览 .检索 ,共享 等 服务 
的 基础 ,如 何 为 用 户 提供 优质 的 元 数据 创建 服务 是 科 
学 数据 仓储 建设 过 程 中 需要 考虑 的 核心 问题 之 一 。 


2 国内 外 研究 综述 


为 深入 了 解 科 研 人 员 共 享 科学 数据 的 动机 与 方 
xt, Wiley 的 一 项 研究 在 调查 了 全 球 2 886 名 科研 人 
员 后 总 结 出 科研 人 员 不 愿 共享 其 科学 数据 的 4 个 重要 


INFN 


原因 :中 害怕 共享 数据 产生 的 诸如 数据 滥用 法 律 或 者 


以 及 在 何 处 共享 数据 的 知识 。T.，CAROL ”和 其 团 
队 在 2011 年 和 2015 年 分 别 对 1 000 多 名 科研 人 员 如 
何 管理 其 科研 数据 进行 调查 ,在 2011 年 的 调查 结果 中 
超过 50% 的 科研 人 员 表 示 从 未 使 用 过 任何 元 数据 标 
准 且 仅 26% 的 科研 人 员 对 自己 所 使 用 的 科学 数据 元 
数据 创建 工具 感到 满意 ,在 2015 年 的 调查 结果 中 仍然 
有 47.9% 的 研究 人 员 表 示 从 未 使 用 过 任何 元 数据 标 
准 。《 开 放 数 据 状 态 报告 2019》” 表 明 全 球 仍 有 
54.33% 的 科研 人 员 从 未 听 说 过 FAIR ( Findability, Ac- 
cessibility ，Interoperability ，and Reusability ) 原则 , 有 
48% 的 科研 人 员 不 清楚 如 何 运 用 数据 许可 协议 。 国 外 
相关 研究 表明 : 当前 科研 人 员 缺 少 科 学 数据 元 数据 知 
识 且 不 擅 于 为 自己 的 科学 数据 创建 元 数据 ,元 数据 创 
建 服务 与 工具 存在 短 板 , 上 述 原因 直接 或 间接 影响 了 
科学 数据 的 共享 与 重用 。 

在 CNKI 中 使 用 标题 检索 ,构造 检索 式 “( 篇 名 
(元 数据 + 科学 数据 ) )AND( 篇 名 :服务 )”, 最 终 得 到 
89 篇 相关 文献 ,采用 由 上 到 下 逐 层 缩小 范围 的 方法 对 
文献 进行 梳理 发 现 国内 研究 呈现 如 下 特点 :中 较 多 关 
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商业 后 果 等 负面 影响 | DHRS TET EAA BT AL |) | 注 国 外 高 校 图 书馆 内 所 开展 科学 数据 服务 情况 ,侧重 
发 布 数据 所 涉及 的 准备 工作 量 太 大 ;@ 缺 少 关 于 如 何 于 整体 分 析 并 引进 国外 先进 经 验 ,如 肖 潇 等 所 归纳 出 
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在 E-science 环境 下 国外 图 书馆 参与 科学 数据 服务 的 5 
APRS ITH, ERGO 以 美国 ,英国 和 澳大利亚 5 所 
高 校 为 例 总 结 出 高 校 图 书馆 7 大 科学 数据 服务 项 目 ; 
加 较 早 关注 科学 数据 在 描述 和 组 织 方面 可 能 面临 的 分 
类 标 引 文献 关联 等 问题 ,相关 学 者 调研 并 总 结 了 国 
外 利益 相关 方 探索 与 解决 上 述 问题 的 技术 措施 与 应 对 
方案 ,如 钱 鹏 等 ”提出 科学 数据 组 织 与 服务 需 解 决 的 
六 大 关键 问题 , 邱 春燕 中 总 结 了 国外 期 刊 文献 与 科学 
数据 关联 服务 的 提供 途径 与 关键 性 实现 方式 ;@ 少 数 
学 者 关注 了 国外 高 校 图 书馆 提供 的 元 数据 服务 及 元 数 
据 创 建 服务 ,如 黄鑫 等 ”调查 分 析 了 8 所 USA News Hi 
名 前 100 位 的 高 校 图 书馆 科学 数据 元 数据 服务 并 总 结 
出 其 元 数据 创建 服务 的 4 种 形式 ;@ 部 分 学 者 对 典型 
数据 仓储 的 元 数据 方案 进行 了 研究 ,未 对 平台 内 如 何 
将 计数 据 标准 或 方案 运用 于 具体 的 元 数据 创建 服务 中 
进 衍 研究 ,如 胡 芳 " "研究 了 国外 4 个 典型 数据 仓储 的 
TEI R. 


总 体 来 看 ,国内 有 关 科 学 数据 元 数据 创建 服务 的 
三 窗 较 少 ,相关 研究 主要 从 宏观 层面 介绍 、 分 析 并 引进 
国友 高 校 图 书馆 科学 数据 服务 的 先进 模式 与 经 验 ,对 
元 烽 据 创建 服务 的 少数 研究 也 局 限 在 高 校 图 书馆 内 ， 
负 刀 对 外 部 平台 元 数据 创建 服务 的 系统 分 析 与 经 验 总 
缚 本 文选 取 6 个 综合 型 科学 数据 仓储 ,聚焦 平台 所 
提 佛 的 元 数据 创建 服务 ,结合 相关 学 者 所 提出 的 科学 
BEALL 文献 关联 等 问题 ,分 析 并 总 结 其 元 数据 创建 
服 容 的 特点 ,以 期 为 我 国 高 校 图 书馆 数据 仓储 建设 及 
元 数据 创建 服务 的 设计 与 实施 提供 启示 与 借鉴 ,最 终 
促 便 其 为 科研 人 员 提 供 易 用 且 高 质量 的 科学 数据 元 数 
据 标注 方案 。 


3 ”调研 对 象 与 研究 路 线 


科学 数据 仓储 (research data repository ,简称 RDR) 
又 被 称 为 数据 仓储 .中 心 .平台 等 ,作为 科学 数据 管理 
的 基础 设施 ,一 般 分 为 学 科 型 和 综合 型 。 根 据 Springer 
Nature 旗下 学 术 期 刊 对 数据 提交 的 要 求 … ,学 科 型 仓 
储 是 论文 关联 数据 根据 其 论文 所 属 的 特定 学 科 提 交 至 
学 界 认 可 的 仓储 ,综合 型 仓储 是 当 数据 无 合适 的 学 科 
仓储 供 提 交 时 所 用 的 备 选 仓储 。 在 学 科 交 叉 融 合 背景 
下 , 相 比 于 学 科 型 数据 仓储 ,综合 型 数据 仓储 服务 群体 
更 为 广泛 ,一 般 面向 整个 科学 共同 体 提供 科学 数据 的 
创建 ,提交 存储、 出 版 和 管理 服务 ,其 支持 任何 类 型 、 
任何 学 科 内 科学 数据 的 存储 ,因而 建设 的 要 求 和 标准 
更 高 ,能 充分 体现 一 国 的 科学 数据 共享 基础 设施 的 建 


设 与 服务 水 平 。 
本 人 研究 选取 Springer Nature 与 Scientific Data 推荐 
的 综合 型 科学 数据 仓储 名 单 上 的 6 个 仓储 作为 调查 对 
象 ;Dryad Digital Repository (以 下 简称 DDR) ) 、Fig- 
share „Harvard Dataverse ( 以 下 简称 HD ) .Zenodo , Men- 
deley Data( 以 下 简称 MD) „Science Data Bank( 以 下 简 
称 SDB) ,平台 基本 信息 如 表 1 所 示 ( 数 据 收集 日 期 截 
止 到 2021 年 1 月 )。 选 取 这 些 仓储 的 原因 在 于 :四平 
台 内 元 数据 创建 服务 与 其 他 服务 边界 清晰 且 具 有 独立 
性 ;@@ 平 台 运营 主体 具有 多 样 性 ,不 局 限于 高 校 图 书 
馆 ;@ 平 台 建 设 成 熟 且 面向 全 球 科研 人 员 提 供 服 务 , 收 
录 数 据 量 较 大 ,表明 平台 服务 质量 和 能 力 受 到 学 界 认 
可 ,其 元 数据 创建 服务 具有 参考 价值 ;D2020 年 9 月 
SDB 成 为 该 名 单 上 唯一 一 个 中 国 自主 研发 建设 的 仓 
WU ,所 选 仓储 同时 具有 国内 、 国 际 代表 性 。 采 用 网 络 
调研 并 结合 文献 调研 ,本 文 将 从 服务 的 内 容 构成 ,服务 
的 实现 模式 两 个 方面 剖析 6 个 平台 的 元 数据 创建 服务 。 
表 1 数据 仓储 基本 信息 


数据 仓储 国家 运营 主体 已 收录 数据 /条 
DDR 美国 CDL 38 828 
Figshare 英国 Figshare LLP 5 668 636 
HD 美国 哈佛 大 学 1 015 374 
Zenodo 欧盟 CERN 1 714 038 
MD fay Elsevier 27 090 178 
SDB 中 国 中 国 科学 院 1 055 


注 :CDL 指 California Digital Library ( 加州 大 学 数字 图 书馆 )， 
CERN 指 the European Organization for Nuclear Research ( 欧洲 核子 研 


RAZA) 


4 元 数据 创建 服务 的 内 容 构成 


4.1 元 数据 元 素 及 其 值 的 设置 

平台 元 数据 元 素 设置 ( 见 表 2) 主 要 与 数据 仓储 建 
设 之 初 所 参照 元 数据 框架 有 关 , 数 据 仓 储 在 制定 元 数 
据 方案 时 通常 会 参考 一 个 或 者 多 个 元 数据 标准 形成 平 
台 自 身 的 元 数据 方案 并 根据 需要 进行 元 素 及 其 值 的 扩 
展 或 缩减 。Zenodo 和 DDR 明确 说 明 其 元 数据 元 素 设 
置 基 于 DataCite schema, HD 在 元 数据 元 素 设 置 上 主要 
采纳 和 借鉴 了 DDI( Data Documentation Initiative ) .DC 
(Dublin Core) .DataCite schema 这 三 个 元 数据 框架 ,其 
余 3 个 平台 的 官网 中 虽 未 明确 说 明 其 元 数据 元 素 设置 
所 依据 的 元 数据 框架 ,但 是 其 具体 的 元 数据 元 素 设置 
表明 3 者 在 力求 简洁 的 基础 上 充分 吸收 和 借鉴 了 自然 
科学 "和 社会 科学 '“ 领域 相关 元 数据 标准 。 
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元 数据 元 素 


#2 平台 
数据 仓储 必 备 元 素 
DDR 刊 名 及 文章 ID ,标题 ,作者 ,摘要 
Figshare 标题 .作者 分类、 项 目 类 型 .关键 词 .描述 .许可 协议 
HD 数据 集 层 :标题 ,作者 、 联 系 方式 .描述 .主题 
文件 层 :无 
Zenodo 出 版 日 期 .标题 、 作 者、 描述 .访问 权限 .许可 协议 .关键 词 
MD 标题 ,贡献 者 .描述 .许可 协议 
SDB 语言 ,标题 ,关键 词 ,数据 集 简 介 、 学 科 分 类 、 通 讯 作 者 邮 
箱 ,数据 集 作 者 .数据 类 型 .许可 协议 .数据 共享 方式 


6 个 平台 元 数据 元 素 设 置 模式 基本 相同 ( 见 图 1) ， 
其 元 素 总 体 上 可 分 为 必 备 元 素 和 选择 性 元 素 , 其 中 必 
备 元 素 是 数据 集 提交 与 发 布 所 必需 的 元 素 , 选 择 性 元 
素 是 满足 数据 发 布 要 求 之 外 用 户 根据 自身 需要 为 数据 
[的 相关 属性 。 必 备 元 素 和 选择 性 元 素 又 可 进 一 


T 


卓 从 为 复合 元 素 与 单一 元 素 , 其 中 复合 元 素 是 指 包 含 

两 个 子 元 素 的 元 素 ,如 作者 这 一 必 备 元 素 通 常 包 
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关键 词 IE AE 


说 明 ,关联 作品 、 研 究 领域 .资助 


资助 .参考 ,数据 保护 ( * 配合 许可 协议 使 用 ,包括 时 间 设 定 、 保 护 范 围 . 原 因 说 


明 三 个 元 素 ) 


数据 集 层 :关键 词 ,关联 出 版 物 .主题 分 类 说明 ,语言 ,关联 材料 ,关联 数据 集 、 
存储 日 期 存储 者 .访问 限制 .时间 范围 ,数据 搜集 、 分 发 日 期 等 

文件 层 :名 称 ,路径 .描述 ,标签 .溯源 文件 ,访问 限制 等 

语言 .附加 说 明 ,资助 .关联 出 版 物 与 数据 集 ,贡献 者 .参考 文献 .主题 

机 构 , 重 现 步 又、 参考 及 关联 资源 .保护 期 设 定 

关联 论文 标题 URL .DOI ,数据 集 参考 链接 .基金 支持 信息 


含 姓名 .所属 单位 ORCID .邮箱 等 子 元 素 ,而 关联 作品 
这 一 选择 性 元 素 通常 包含 关联 资源 标识 符 或 URL 链 
接 、 关 系 、 资 源 类 型 这 三 个 子 元 素 。 单 一 元 素 与 复合 元 
素 又 可 分 为 可 重复 与 不 可 重复 两 个 大 类 ,可 重复 元 素 是 
指 该 元 素 可 重复 著录 多 次 ,6 个 平台 中 作者 这 一 元 素 均 
为 可 重复 复合 元 素 。 在 复合 元 素 下 ,无 论 可 重复 与 否 ， 
其 子 元 素 同 样 可 分 为 必 备 子 元 素 与 选择 性 子 元 素 。 


| Ls 了 元 来 ] | 
(Er 


图 1 元 数据 元 素 设 定 模式 


值 的 设置 既 需 使 得 数据 集 的 描述 具有 完备 性 又 要 
考虑 用 户 的 易 用 性 ,还 需 考虑 值 的 规范 控制 。6 个 平 


台 元 数据 元 素 值 可 分 为 三 类 :第 一 类 为 固定 的 选择 性 
值 ,以 下 拉 列 表 形 式 供用 户 直接 选择 ;第 二 类 为 外 部 参 
考 值 ,提供 外 部 参考 标准 供用 户 选择 著录 ;第 三 类 为 用 
户 著录 值 ,无 任何 参考 信息 或 者 仅 给 出 著录 要 求 , 由 用 
户 根据 已 有 知识 或 者 阅读 元 素 解释 .指导 文档 后 直接 
著录 。 前 两 类 值 的 设 定 ,参考 后 控 词 表 或 者 领域 本 体 ， 
并 从 不 同 术语 系统 中 吸收 元 数据 属性 值 , 为 数据 集 的 
描述 提供 了 规范 参考 和 有 形 约束 ,第 三 类 值 则 充分 体 
现 了 开放 自由 原则 。 


4.2 元 数据 元 素 组 织 方式 

元 数据 元 素 组 织 是 将 原本 松散 无 序 的 元 数据 元 
素 、 元 素 值 根据 功能 和 属性 的 不 同 进 行 重新 组 合 与 排 
序 的 过 程 。 作 为 将 用 户 为 数据 集 创 建 的 初始 元 数据 转 
换 为 平台 最 终生 成 的 数据 集 标准 元 数据 这 一 过 程 的 枢 


快速 理解 平台 内 科学 数据 元 数据 创建 与 整合 的 逻辑 框 
架 ;@ 中 介 转 换 功能 ,以 元 数据 元 素 组 织 框架 形成 用 户 
元 数据 创建 模板 ,以 该 模板 为 中 介 最 终 将 用 户 为 数据 
集 创建 的 初始 元 数据 转换 为 平台 所 发 布 的 数据 集 标准 
元 数据 。 
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笔者 在 充分 调研 了 自然 科学 和 社会 科学 领域 典型 
数据 集 元 数据 标注 与 组 织 方案 并 选取 领域 标准 案例 进 
行 对 比 (结果 见 表 3) 后 ,发 现 二 者 虽 因 学 科 领 域 不 同 
造成 标注 与 组 织 的 侧重 点 不 同 , 但 其 元 数据 元 素 设 置 


与 组 织 的 整体 框架 基本 相同 且 呈 现 标 准 化 趋势 , 即 通 
过 标准 的 模块 化 元 数据 组 织 方式 实现 元 数据 元 素 的 系 
统 整 合 与 资源 的 内 外 联动 。 


RI 社会 科学 与 自然 科学 领域 数据 集 元 数据 标注 示例 


数据 集 信 息 劳动 力 调查 1161 1978 -2016 年 中 国 种 植 业 温室 气体 排放 量 '17] 
来 源 UK Data Service Scientific Data 
学 科 领 域 社会 科学 自然 科学 
标注 细节 模块 1: 细节 模块 1 :单元 
子 模块 :必要 细节 (标题 .研究 编号 .获取 协议 .DOI、 系 列 .主要 调查 “ 子 模 块 :摘要 (数据 集 整 体 概述 .测量 对 象 .技术 类 型 .因素 类 型 样 
机 构 ) ` 资 助 者 与 贡献 者 (数据 提交 者 资助 者 ) .引用 和 版 权 ( 引 用 “本 特征 - 环境 、 样 本 特征 - 地 点 ) .背景 与 总 结 方法 (作物 露天 秸 
格式 选择 XML 引用 格式 ,版权 说 明 ) .主题 .主题 词 表 下 的 关键 词 、 称 露天 焚烧 ,水稻 种 植 . 耕 地 变化 、 耕 地 排放 农药 生产 等 ) .数据 记 
摘要 (背景 .内 部 文件 说 明 数据 加 权 声 明 、 衍 生 数据 说 明 、 终 端 用 “ 录 、 技 术 验证 局限 性 .代码 可 获得 性 、 参 考 资源 .作者 信息 (附属 机 
户 许可 协议 与 安全 访问 说 明 .内 部 变量 补充 ,去除 .变化 的 说 明 , 调 “” 构 .通讯 作者 ) .道德 声明 (竞争 利益 ) .附加 信息 、 补 充 资料 ,版权 与 
查 方法 说 明 ,变量 加 权 信 息 .问卷 设计 说 明 ) 覆盖 范围 和 方法 ( 调 许可、 关于 本 数据 集 ( 数 据 集 引用 、 数 据 集 接收 日 期 .接受 日 期 \ 发 
查 的 起 始 日 期 \ 国 家、 空间 单位 ,调查 个 体 、 调 查 的 地 理 范 围 人 口 、 布 日 期 .DOI` 分 享 链接 .主题 词 ) 
= 样本 数量 .数据 收集 方法 .时 间 维 度 .抽样 程序 .加 权 方 法 ) AS 
> 史 ( 初 版 发 布 日 期 .最 新 版 本 发 布 日 期 ,所 有 版 本 ) 
Le) 模块 2: 内 部 文件 (标题 文件 名 称 . 大 小 ) 模块 2: 数 据 集 内 部 图 表 ( 图 表 标题 .简短 的 解释 与 说 明 ) 
CO 模块 3 :参考 资源 (案例 研究 .出 版 物 /报告 .调查 研究 .其 他 ) 模块 3 :参考 资源 ( * 统一 采用 标准 引用 格式 ) 
@ 〇 综合 型 数据 仓储 元 数据 组 织 方式 并 没有 完全 照搬 | 元 素数 量 较 多 且 复 杂 的 平台 如 HD 则 采用 创新 的 外 部 
A RI 半 学 与 社会 科学 领域 标准 的 模块 化 元 数据 元 素 组 分 层 与 内 部 模块 化 组 织 方 式 , 意 在 将 元 素 组 织 的 逻辑 


纺 式 ,而 是 根据 自身 元 数据 元 素数 量 复杂 程度 与 平 
全 有 能 定位 进行 调整 取舍 并 有 所 创新 ( 见 表 4)。 F 
合 半 要 采用 三 种 元 数据 组 织 方式 ;四 元 素数 量 较 少 的 


性 与 层次 性 结合 ,并 完成 数据 集 从 宏观 到 微观 层次 的 
充分 描述 以 实现 从 数据 集 整 体 到 局 部 数据 文件 的 引 
用 。 无 论 采 取 何 种 组 织 方式 ,平台 的 最 终 目的 都 是 从 


莱 用 直接 罗列 方式 , 意 在 表现 其 简洁 性 ; 忆 元 素数 量 
等 的 则 采用 模块 化 组 织 , 意 在 体现 其 组 织 的 逻辑 性 ;G) 


户 的 易 用 性 出 发 ,使 其 为 科学 数据 创建 元 数据 时 能 
够 沿 着 一 条 清晰 主线 ,高 效 且 规范 地 完成 元 数据 著录 。 


S 


表 4 平台 元 数据 元 素 组 织 方式 


Gei 元 素数 量 组 织 方式 说 明 组 织 方式 特点 
Deshare 较 少 直接 罗列 简洁 明了 
-Np 较 少 直接 罗列 一 
pr 中 等 模块 化 组 织 q 大 模块 :初步 信息 ,数据 集 基 本 信息 .数据 描述 .关联 作品 
Zenodo 中 等 模块 化 组 织 三 大 必 备 模块 ;数据 集 类 型 .基本 信息 .许可 协议 ;五 大 选择 性 异 注重 整体 逻辑 性 .强调 模块 内 部 元 素 功 
鼎 : 资 助 ,关联 /替代 标志 符 .贡献 者 .参考 资源 ,关联 资源 能 一 致 性 、 保 持 异 块 之 间 关 联 性 
SDB 中 等 模块 化 组 织 五 大 模块 :数据 集 描述 信息 .数据 集 作者 信息 .论文 关联 信 
息 ,数据 权益 相关 信息 ,数据 实体 文件 
HD REHAR ”外 部 分 层 组 织 + 将 数据 集 描述 分 为 宏观 数据 集 层 描述 与 微观 文件 层 描述 ,在 凸显 每 一 个 元 数据 元 素 在 描述 功能 的 
内 部 模块 化 组 织 。 。” 数据 集 层 内 部 进行 元 素 的 模块 化 组 织 县 次 适用 性 ,实现 数据 集 的 充分 描述 并 


4.3 元素 及 其 值 的 特征 分 析 

元 数据 元 素 及 其 值 的 设计 主要 是 为 了 实现 数据 集 
背景 信息 的 完整 描述 .数据 集权 益 的 个 性 化 声明 以 及 
数据 集 与 相关 资源 的 全 面 关 联 。 科 研 人 员 为 数据 集 创 
建 的 元 数据 将 为 数据 重用 与 重 现 提 供 关键 信息 ,其 将 
决定 数据 何 时 可 用 、 如 何 正 确 使 用 ,同时 也 是 数据 引用 
的 前 提 。 对 6 个 平台 元 数据 元 素 及 其 值 进 行 综合 
析 , 其 特点 主要 体现 在 4 个 方面 , 见 表 5。 


融合 元 素 组 织 的 逻辑 性 与 层次 性 


4.3.1 必 备 元 素 服务 于 数据 引用 

整体 而 言 ,6 个 平台 数据 集 发 布 所 需 的 必 备 元 素 
较 少 ,SDB 则 由 于 当前 平台 收录 的 数据 集 数 量 较 少 ,为 
保证 数据 的 检 出 ,其 所 要 求 的 必 备 元 素 相对 较 多 。 根 
据 2014 年 发 布 的 《数据 引用 原则 联合 声明 》"" ,完整 
规范 的 数据 引用 格式 中 应 当 包 括 作 者 .年份 .数据 集 标 
题 ,全球通 用 标识 符 、 数 据 仓储 名 称 、 版 本 ,而 Datacite 
所 鼓励 使 用 的 数据 集 引 用 格式 中 包括 作者 、 出 版 年 . 标 
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表 5 元 数据 元 素 及 其 值 的 特征 


ens BURSI PER ER este 
数据 仓储 ( 必 备 元 素 ) 数据 重用 数据 民主 控制 数据 关联 
DDR 较 少 方法 + 使 用 说 明 CC0( 强制 性 ) 部 分 资源 类 型 关联 (论文 、 预 印 本 数据 集 、 软 件 、 补 充 
信息 ) :DOIs/URLs 
Figshare 较 少 在 描述 中 陈述 1 多 许可 协议 ; 2、 数 据 保护 多 种 资源 关联 :URLs/DOTs 
HD 较 少 在 描述 中 陈述 1、CC0; 2 使 用 条 款 设置 ; 3 数据 使 用 控制 ”1 多 种 资源 关联 :URLs; 2 特殊 出 版 物 关 联 :专门 单元 
工具 Dataset Cuestbook 
Zenodo 较 少 在 描述 中 陈述 多 许可 协议 1 .多 种 资源 关联 :URLs/DOIs 配合 语义 关联 ;2 ,特殊 出 
版 物 关 联 : 专 门 单元 
MD 较 少 描述 + 重 现 步骤 多 许可 协议 多 种 资源 关联 :URLs/DOTIs 配合 语义 关联 
SDB 较 多 数据 集 简介 1 .CCOXCC-BY 4.0; 2 .数据 保护 期 论文 关联 :DOIs/URLs 


题 出 版 者 、 资 源 类 型 和 标识 符 "” 。6 个 平台 要 求 用 户 
所 提交 的 必 备 元 素 集合 基本 包括 数据 集 引 用 所 必需 的 
元 素 , 未 包括 的 元 素 通常 在 数据 发 布 之 时 自动 生成 ,如 
DOL Ae At 

serpy 设 定 专门 元 素 保 证 数据 重用 

GO 为 充分 保证 数据 的 重 现 和 重用 ,平台 均 设置 单独 
元 六 或 者 通过 元 素 的 组 合 要 求 用户 在 具体 的 值 中 提供 
闫 据 收 集 的 步 又 与 方法 、 所 用 仪器 和 设备 等 信息 。 按 
昭光 述 的 具体 性 可 分 为 简要 陈述 与 详细 陈述 两 大 类 : 
入 汉 类 通过 在 单一 元 素 值 下 要 求 用 户 简 述 上 述 信息 ; 
POL ETRE PMLA 副 元 素 值 完成 上 述 
HEIRS DOR IRLAN (Methode) 与 使 有 
WI Usage notes) 这 两 个 元 素 充分 保证 数据 背景 信 ， 
ria 2 BE MD 除 描述 办 元 案外 
还 和 通过 专门 设置 重 现 步 又 (Sieps to reproduce) 这 一 副 
元 宫 要 求 用 户 详细 陈述 其 数据 收集 过 程 。 其 中 第 一 类 


( Description ) 这 


陈 渤 适 用 于 平台 内 数据 集体 量 较 大 时 或 者 平台 建设 初 
期 二 类 陈述 主要 适用 于 自然 科学 领域 数据 集 。 


4.3.3 元 素 组 合 机 制 实现 数据 民主 控制 
在 Wiley 的 调查 中 科研 人 员 不 愿意 共享 其 科学 
数据 的 2 个 重要 原因 在 于 害怕 数据 滥用 所 产生 的 法 律 
后 果 与 缺乏 对 自己 工作 的 认可 机 制 。 第 一 个 原因 产生 
的 背景 在 于 数据 发 布 后 科研 人 员 失 去 对 其 数据 集 的 控 
制 ,第 二 个 原因 产生 的 背景 在 于 缺乏 针对 数据 共享 数 
据 发 布 的 激励 机 制 。 针 对 上 述 问 题 ,6 个 平台 主要 和 采 
用 3 种 方案 实现 数据 灵活 控制 :中 强制 许可 协议 , 如 
DDR 所 发 布 的 数据 集 全 部 使 用 CC0 许可 协议 ,原因 在 
于 其 数据 集 多 与 期 刊 论文 关联 且 其 主要 服务 于 论文 的 
同行 评议 ;@@ 多 许可 协议 ,其 允许 用 户 首先 根据 数据 集 
类 型 灵活 选择 最 适用 的 许可 协议 ,如 MD 将 协议 分 为 
纯 数 据 、 硬 件 与 软件 许可 协议 三 大 类 ,然后 用 户 可 在 具 
体 协 议 下 自行 决定 数据 集 可 被 何 种 方式 重用 ,包括 署 


名 禁止 商用 .采用 相同 许可 协议 .禁止 演绎 以 及 通过 
组 合 方式 进行 重用 限定 ;@ 许 可 协议 与 其 他 方式 的 组 
合 使 用 ,其 允许 用 户 在 默认 的 少量 许可 协议 之 外 ,通过 
保护 期 首先 设 定 数据 保护 的 时 间 段 或 者 公开 的 具体 时 
间 节 点 ,如 SDB, ,而 Figshare 还 可 在 上 述 基 础 上 通过 保 
护 类 型 (Embargo type) 允许 用 户 选 择 对 数据 进行 部 分 
保护 还 是 整体 保护 , 若 用 户 选择 仅 文件 保护 , 则 数据 文 
件 在 保护 期 内 处 于 私密 状态 ,但 其 元 数据 记录 将 是 可 
公开 获取 的 , 蔡 用 户 选 择 整 体内 容 保 护 , 则 数据 集 及 其 
元 数据 记录 在 保护 期 间 均 是 私密 的 , HD 则 通过 条 款 
复合 元 素 允 许 用 户 从 数据 集 层 到 文件 层 
实现 数据 使 用 的 具体 限定 ,用 户 还 可 以 通过 内 置 工具 
Dataset Guestbook 使 得 数据 集 被 下 载 时 数据 集 所 有 者 


能 够 收集 下 载 者 姓名 、 邮 箱 、 机 构 和 地 理 位 置 等 关键 信 
自 


4 0 


4.3.4 多 样 化 数据 关联 方式 

各 个 平台 均 重 视 对 数据 集 与 其 他 关联 资源 之 间 关 
系 的 描述 。 按 关联 资源 的 类 型 可 分 为 单一 资源 关联 、 
部 分 资源 关联 与 多 种 资源 关联 三 大 类 ,并 主要 通过 
URLs 与 DOIs 两 种 方式 实现 数据 集 与 多 种 类 型 的 多 个 
资源 的 精确 关联 。 考 虑 到 数据 集 与 关联 资源 之 间 的 关 
系 类 型 同样 具有 多 样 性 ,包括 引用 参考、 汇编 .衍生 、 
部 分 .替代 .连续 和 描述 等 关系 ,MD 和 Zenodo 尝试 对 
关系 进行 语义 化 描述 ,并 通过 关联 资源 类 型 + 关联 资 
源 数 字 标 志 符 + 关系 三 个 子 元 素 组 配 实 现 。 此 外 ,Ze- 
nodo 和 HD 设置 专门 单元 为 会 议论 文 .学 位 论文 .书籍 
或 者 报告 的 部 分 章节 等 特殊 关联 出 版 物 提供 适用 的 专 
门 元 数据 单元 帮助 用 户 定位 具体 关联 内 容 。 


5 元 数据 创建 服务 的 实现 模式 


目前 ,国内 外 科学 数据 元 数据 创建 服务 的 形式 主 
要 有 以 下 6 种 ”” :发 布 指 导 性 文档 、 巾 入 至 科研 过 


(Terms ) 这 一 
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程 、 自 我 提交 表格 .提供 元 数据 文件 模板 、 提 供 软 件 工 
具 和 智能 解析 元 数据 配置 文件 。 按 照 人 工 参 与 程度 ， 
可 分 为 完全 人 工 创建 , 半 手 工 创建 自动 创建 三 类 。 科 
学 数据 仓储 元 数据 创建 服务 的 趋势 则 是 根据 平台 自身 
的 资源 定位 和 用 户 需求 ,将 以 上 几 种 服务 形式 融合 ,以 
实现 科学 数据 元 数据 的 自动 化 .智能 化 创建 。 

科学 数据 作为 一 种 新 兴学 术 资 源 逐 渐 被 科研 人 员 
所 接受 。 为 解决 当前 科研 人 员 认 为 的 数据 集 元 数据 创 
建 过 程 繁 琐 且 工作 量 大 、 多 数 科研 人 员 不 知道 或 者 不 
理解 什么 是 科学 数据 的 元 数据 且 不 知道 该 为 自己 的 科 
学 数据 创建 哪些 元 数据 等 问题 ,目前 6 个 平台 均 通 过 
自我 提交 表格 并 配合 指导 文档 这 一 模式 帮助 用 户 完成 
科学 数据 的 元 数据 创建 。 元 数据 创建 方式 以 人 工 创建 
为 二, 半 手 工 创建 为 辅 ,其 中 第 一 类 固定 选择 性 值 为 半 
我 瑟 创 建 ,第 二 类 外 部 参考 值 的 创建 方式 介 于 半 和 手工 
与 祝 全 人 工 创建 之 间 , 第 三 类 用 户 著录 值 为 完全 人 工 
创 茹 。 平 台 元 数据 创建 服务 实现 模式 既 体现 高 效 性 、 
蜂 用 性 与 简洁 性 ,同时 也 注重 对 科学 数据 元 数据 知识 


5.1 自我 提交 表格 
表格 内 容 主要 包括 元 数据 元 素 名 称 、 标 识 和 解释 
三 部 分 ,根据 元 素 解释 覆盖 元 素 的 完整 程度 可 分 为 元 
素 完 全 解释 型 元素 部 分 解释 型 两 类 。 平 台 以 简洁 的 
表格 形式 简化 服务 流程 ,借助 清晰 的 符号 标识 为 元 素 
的 重要 程度 分 级 并 辅 以 具体 的 元 素 解释 帮助 用 户 无 需 
系统 学 习 专业 的 元 数据 知识 即 可 快速 进入 并 适应 元 数 
据 创 建 环境 。 

6 个 平台 对 元 素 所 进行 的 解释 主要 包括 含义 界 
定 、 规 范 著 录 示 例 、 填 写 建议 三 大 内 容 。 与 传统 学 术 资 
源 不 同 ,为 系统 全 面 地 描述 科学 数据 的 溯源 信息 以 增 
加 其 重 现 性 .可 用 性 ,数据 集 的 描述 通常 会 包括 创建 和 
转换 历史 元 数据 属性 ( Creation and transformation histo- 
ry metadata ) 以 记录 其 如 何 创建 以 及 对 其 所 执行 的 后 续 
转换 ,处理 的 信息 '"” 。 部 分 解释 型 和 完全 解释 型 表格 
均 对 这 一 特殊 属性 所 涉及 的 元 素 的 含义 加 以 简短 、 通 
俗 的 解释 以 增进 用 户 对 其 的 理解 ,从 而 引导 用 户 正 确 、 
规范 .完整 地 录入 相关 值 ,如 表 6 所 示 : 


的 普及 。 

© 表 6 元素 解 释 类 型 与 特点 

CN 仓储 类 型 具体 特点 

© vor 部 分 解释 型 启发 式 设 问 : 以 具体 问题 引导 用 户 思考 和 明确 元 素 什 所 著录 的 内 容 

CNzeou 部 分 解释 型 直接 陈述 : 曾 述 每 个 具体 元 素 及 其 值 的 意义 和 可 资 参考 的 内 部 与 外 部 标准 
igshare 完全 解释 型 交互 式 解释 :著录 时 弹出 相应 解释 ,提示 主要 包括 元 素 合 义 .元素 功能 .著录 内 容 .标准 格式 .操作 步 怠 五 部 分 
MD 完全 解释 型 交互 式 解 释 : 著 录 时 弹出 相应 解释 ,解释 主要 包括 元 素 含 义 .元 素 功能 .著录 内 容 与 要 求 三 部 分 

om SDB 完全 解释 型 交互 式 解 释 :著录 时 弹出 相应 解释 ,解释 分 为 元 素 含义 .元素 功能 ,规范 示例 三 部 分 

E :mm “完全 解释 型 “交互 式 解释 ,并 对 可 能 存在 歧义 .容易 混淆 的 元 素 给 出 清晰 定义 与 具体 示例 


< 具体 而 言 , 部 分 解释 型 平台 采用 启发 式 设 问 与 直 
接 降 述 方式 对 相关 元 素 进行 解释 与 说 明 ,主要 体现 了 
其 对 元 素 重要 性 的 分 级 并 充分 考虑 解释 的 易 读 与 可 读 
性 ;完全 解释 型 平台 则 全 部 采用 交互 解释 的 方式 对 元 
素 进行 解释 与 说 明 ,主要 体现 了 解释 的 全 面 性 并 实现 
对 用 户 困 惑 即时 交互 的 解答 。 

R. NICOLAS ”等 分 析 了 从 DataCite 收割 来 的 
7 440 415 条 元 数据 记录 后 发 现 用 户 对 定义 模糊 .存在 
歧义 的 字段 ,会 选择 跳 过 不 著录 ,因此 有 必要 对 存在 歧 
义 的 字段 清 晰 定义 和 解释 ,以 提升 元 数据 质量 与 完整 
性 。HD 则 首次 在 交互 式 解释 中 对 数据 集 生 命 周 期 中 
做 出 不 同 贡献 的 相关 人 员 , 如 作者 (Author) .生产 者 
( Producer) | ot KF (Contributor) .分 发 者 (Distributor) 、 
TENKE (Depositor) 等 元 素 ,给 出 清晰 定义 ,并 对 数据 集 
中 涉及 的 生成 日 期 (Production date) ,分 发 日 期 (Distri- 
bution date) ,存储 日 期 (Deposit date ) .包含 时 间 范 围 


(Time period covered) ,收集 日 期 (Date of collection ) 等 
时 间 元 素 给 出 具体 的 概念 定义 与 边界 划分 ,最 终 实 现 
元 素 意义 的 消 歧 。 
5.2 指导 性 文档 

表格 内 容 为 用 户 提供 了 关于 元 数据 元 素 的 必 备 基 
本 知识 ,其 内 容 多 为 操作 层面 的 ,平台 提供 单一 或 者 多 
个 指导 性 文档 ( 见 表 7) 满足 用 户 进一步 了 解 平 台 元 数 
据 信息 的 需求 ,以 解决 用 户 在 元 数据 创建 过 程 中 遇 到 
的 实际 问题 。 指 导 性 文档 一 般 设 置 在 FAQ 文档 ,帮助 
文档 ,数据 管理 与 存档 文档 下 ,其 内 容 涉 及 元 数据 的 作 
用 与 意义 .元 数据 中 应 包括 的 一 般 性 内 容 、 元 数据 所 采 
的 标准 与 指导 方案 、 补 充 说 明 每 个 元 素 的 含义 以 及 
相关 元 素 进行 规范 控制 时 所 采用 的 术语 系统 。 指 导 性 
文档 旨 在 阐述 什么 是 科学 数据 的 元 数据 以 及 该 为 科学 
数据 创建 何 种 元 数据 ,注重 科学 数据 及 科学 数据 元 数 
据 基础 知识 的 普及 以 提升 用 户 元 数据 创建 能 


y 
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RAW, 王涛 . 综合 型 科学 数据 仓储 元 数据 创建 服务 研究 [可 .图书 情 报 工作 ,2021,65(21) :131 - 140. 


R7 指导 性 文档 内 容 


数据 仓储 指导 性 文档 
DDRL221 FAQ: 
包 应 该 在 我 的 元 数据 中 纳入 什么 信息 ? @@ 在 数据 集 提交 之 前 我 该 如 何 准备 数据 文件 ? @ 数 据 集 怎样 才能 变 得 可 发 现 ? 
FigshareL 23] Help 文档 中 的 Tutorials 系列 : 
中 如 何 上 载 和 发 布 你 的 数据 集 ;@ 如 何 编辑 和 删除 你 的 数据 ;@@ 如 何 上 载 关联 文件 .保护 和 限制 访问 项 目 以 及 只 上 传 元 数据 记录 ;由 如 何 
使 用 关键 词组 织 你 的 文件 * ( 以 上 均 附 有 操作 视频 ) 
HD 24] 和 户 指导 :数据 集 与 文件 管理 
Zenodo125] FAQ: 
中 一 般 性 问题 ;@) 技 术 与 安全 问题 ;GB)DOI 版 本 问题 ;四 数据 政策 ;G 数 据 引用 规范 指导 ;@@ 原 则 :FAIR 原则 
MDL26] 数据 集 存档 : 
D 数据 摄取 ;@) 数据 管理 
SDB[27] Help 系列 文档 : 
GOFAQ :如 何 填写 你 的 数据 集 描 述 文件 ?”@) 数 据 政策 ;G@) 数 据 集 发 布 流程 
6 一 元 数据 创建 服务 特点 现 数据 的 基本 民主 控制 之 外 ,配合 用 户 自 定义 使 用 条 
T J L FI TT iw > ~ ` YEAS y 
> 款 \ 保 护 期 设 定 、 内 置 开发 工具 ,在 基础 之 上 进行 改进 


《CO 通 过 对 6 个 综合 型 科学 数据 仓储 的 服务 内 容 构 成 
号 举 现 模式 进行 系统 剖析 ,尽管 其 提供 的 服务 在 微观 
天上 存在 差异 ,但 其 整体 上 主要 呈现 以 下 特点 ， 
6.Te 充分 吸收 借鉴 领域 知识 ,沿袭 传统 并 有 所 创新 
局 综合 型 科学 数据 仓储 在 元 数据 元 素 及 其 值 的 设置 
| 久 诊 分 借鉴 并 吸收 自然 科学 与 社会 科学 领域 元 数据 标 
哗 洲 足 于 平台 自身 功能 定位 .元 素 规 模 与 学 科 侧 重 
点 \ 寿 元 数据 的 组 织 模式 上 将 传统 的 自然 科学 与 社会 
科学 领域 的 模块 化 元 数据 组 织 方式 进行 改造 并 实现 创 
JERK. 

6. 以 用 户 为 中 心 ,服务 内 容 与 模式 上 力求 简洁 
.二 综合 型 科学 数据 仓储 在 服务 内 容 方面 据 弃 自然 科 
学 与 社 会 科学 领域 具体 元 数据 标注 方案 的 复杂 性 ,其 
服务 内 容 力求 实现 元 数据 内 容 的 简洁 与 质量 二 者 的 平 
衡 ;在 充分 考虑 不 同 层次 知识 背景 用 户 体验 的 基础 上 ， 
其 服务 模式 力图 实现 元 数据 创建 服务 的 简洁 性 、 易 用 
性 .质量 三 者 之 间 的 平衡 。 通 过 内 容 与 模式 上 的 双重 
简化 ,实现 科学 数据 的 即时 发 布 。 


6.3 ”注重 科学 数据 元 数据 知识 普及 ,重视 知识 转化 与 
迁移 


在 元 数据 创建 实践 中 局 部 渗透 科学 数据 元 数据 元 
素 知 识 ,在 指导 性 文档 中 从 整体 上 系统 引入 科学 数据 
及 其 元 数据 背景 知识 ,从 而 实现 部 分 与 整体 知识 的 渗 
透 与 普及 ,并 最 终 完 成 元 数据 知识 与 元 数据 创建 能 
的 双 回 流动 与 互相 促进 。 
6.4 ”注重 对 数据 创建 者 的 权益 保护 ,充分 体现 数据 民主 

通过 强制 许可 协议 与 多 许可 协议 选择 为 数据 的 合 
理 使 用 提供 政策 层面 的 支持 。 除 利用 基础 许可 协议 实 


与 创新 ,进一步 加 强 数据 创建 者 权益 保护 以 降低 数据 
滥用 风险 。 
6.5 ”重视 数据 集 与 其 相关 资源 的 关联 组 织 , 鼓 励 数 据 
引用 

V. TIMOTHY' 等 对 发 表 于 PLOS 和 BMC 的 50 
多 万 篇 论文 进行 研究 后 发 现 ,科研 人 员 将 自己 的 研究 
数据 存储 在 数据 仓储 并 与 相关 论文 关联 将 使 得 论文 的 
平均 被 引 率 提升 约 20% ,《 开 放 数 据 状态 报告 2019》" 
表明 对 研究 论文 的 完整 引用 仍然 是 促使 研究 人 员 共 享 
其 科学 数据 的 最 强 动力 。 各 平台 均 提供 专门 的 元 数据 
元 素 或 模块 基本 实现 数据 集 与 多 种 资源 的 关联 ,在 基 
本 关联 之 外 ,实现 关联 方式 与 关联 表达 上 的 创新 。 在 
数据 集 元 数据 创建 完成 之 后 ,系统 会 自动 生成 多 种 数 
据 引 用 格式 ,为 数据 集 创造 良好 引用 条 件 以 提升 数据 
集 及 相关 学 术 成 果 影 响 力 。 


7 ”对 我 国 图 情 机 构 数 据 仓 储 建设 及 元 数 
据 创建 服务 开展 的 启示 


综合 型 科学 数据 仓储 元 数据 创建 服务 从 服务 内 容 
到 实现 模式 上 体现 出 上 述 诸多 优势 与 特色 ,为 我 国 
情 机 构 科 学 数据 仓储 建设 及 科学 数据 元 数据 创建 服务 
开展 提供 了 先进 的 国内 与 国外 经 验 , 为 此 ,可 从 以 下 3 
个 方面 学 习 借 鉴 并 实现 创新 : 
7.1 立足 平台 自身 定位 ,服务 内 容 力 求 简洁 并 凸显 特色 

我 国 图 情 机构 在 建设 科学 数据 仓储 时 可 该 根据 自 
身 学 科 定 位 与 主要 服务 对 象 ,有 针对 性 地 选择 、 吸 收 、 
借鉴 领域 元 数据 标准 ,并 在 充分 调研 当下 科研 人 员 在 
数据 集 元 数据 标注 中 存在 的 困境 与 需求 后 ,在 力求 简 
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洁 的 基础 上 形成 具有 自身 特色 的 元 数据 标注 与 组 织 
案 。 数 据 仓储 主要 服务 于 自然 科学 领域 科研 人 员 期 乔 
论文 关联 数据 集 存储 与 评审 的 ,可 参考 DDR 与 SDB 的 
元 数据 组 织 方案 ;数据 仓储 主要 服务 于 社会 科学 领域 
科研 人 员 数 据 集 提交 与 存储 的 ,可 参考 HD 的 将 数据 
集 元 数据 模块 化 与 分 层 组 织 相 结合 的 方案 ;追求 极 简 
模式 并 与 出 版 商 存在 良好 合作 关系 的 多 学 科 数 据 仓 
储 , 可 参考 MD 与 Figshare 的 元 数据 组 织 方 案 。 
7.2 充分 发 挥 图 情 机 构 信息 素养 培训 优势 ,实现 服务 
模式 突破 与 创新 

综合 型 科学 数据 仓储 由 于 所 存储 数据 集体 量 较 
大 ,数据 集 类 型 较 多 ,其 在 实现 模式 上 竭力 做 到 服务 的 
简洁 性 与 易 用 性 之 间 的 平衡 ,但 由 于 人 员 .经 费 以 及 管 
更 资源 的 有 限 ,综合 型 数据 仓储 仅 通过 指导 性 文档 完 
成 什 户 元 数据 创建 的 培训 与 指导 ,存在 明显 不 足 。 我 
国 图 情 机 构 可 充分 发 挥 机 构 在 信息 素养 教育 方面 积累 
的 吾 富 经 验 ,开展 科学 数据 素养 培训 与 指导 。 为 此 ,可 
在 矶 构 或 者 平台 官网 构建 学 习 中 心 :OD 设置 指 导 性 文 
楼 板块 对 科学 数据 以 及 科学 数据 元 数据 知识 进行 系统 
棋 理 与 总 结 ,对 用 户 在 科学 数据 元 数据 创建 过 程 中 的 
房 虹 问题 进行 归 类 现存 问题 及 时 更 新 以 及 未 来 可 能 
遇 到 的 问题 及 时 预 判 ,并 在 问题 后 给 出 详细 且 可 行 的 
解 次 方案 ;@ 设 置 技能 培训 板块 提升 用 户 数据 技能 ， 
定 略 发 布线 上 、 线 下 培训 活动 通知 ,并 对 视频 ,网 络 
确 漂 会 和 书面 指南 等 培训 资源 进行 整理 与 归 类 , 通 
过 密 样 的 培训 形式 与 多 种 资源 形式 向 用 户 展示 如 何 
检索 ,理解 并 正确 使 用 数据 集 ,最 终 提升 用 户 元 数据 
创 敬 能 力 ;@ 设 置 技术 资源 板块 详细 介绍 当前 科学 
数据 分 析 .处理 ,搜集 以 及 元 数据 创建 中 最 常用 的 软 
件 与 工具 ,可 通过 发 布 工具 使 用 指南 与 指向 工具 的 
链接 使 得 用 户 了 解 并 开始 使 用 它们 以 提升 元 数据 创 
建 的 效率 与 质量 ;@ 尝 试 设置 科学 数据 管理 板块 ,元 
数据 方案 作为 数据 管理 计划 DMP ( Data Management 
Plan ,简称 DMP) 的 核心 组 成 部 分 , 自 2011 年 美国 国 
家 科学 基金 会 NSF 提出 DMP 以 来 ” , 越 来 越 多 的 科 
研 资助 机 构 要 求 将 数据 管理 计划 作为 基金 与 项 目 申 
请 的 必 备 材料 ,我 国 《科学 数据 管理 办 法 》” 中 也 明 
确 要 求 各 级 科技 计划 管理 部 门 建立 验收 科技 计划 的 


的 必要 元 数据 ,在 数据 收集 阶段 对 元 数据 进行 修正 
和 补充 ,在 项 目 结束 后 形成 数据 提交 与 存储 所 需 的 
系统 .完整 的 元 数据 。 
7.3 利用 图 情 机构 工 作 人 员 专 业 知识 优势 ,在 元 数据 
质量 控制 上 进行 创新 

目前 综合 型 科学 数据 仓储 元 数据 创建 主要 以 人 工 
录入 为 主 ,以 半自动 化 的 元 素 值 的 选择 录入 为 辅 , 面 对 
海量 的 科学 数据 其 尚未 形成 有 效 的 元 数据 质量 控制 机 
制 。2019 年 NIH 的 数据 科学 战略 办 公 室 (NIH’”s Of- 
fice of Data Science Strategy ,简称 ODSS ) 与 Figshare 合 
作 开展 了 一 个 为 期 一 年 的 合作 项 目 ,其 上 在 确定 生物 
医学 领域 研究 人 员 如 何 使 用 Figshare 来 共享 和 重用 
NIH 资助 产生 的 科学 数据 ,该 项 目 发 现 数据 集 元 数据 
经 过 专业 数据 馆 员 审查 的 数据 集 比 未 经 审查 的 数据 集 
下 载 量 和 浏览 量 高 出 2.5 倍 ” ,这 从 侧面 表明 平台 加 
强 元 数据 质量 审查 的 重要 性 。 我 国 图 情 机 构 在 开展 科 
学 数据 的 元 数据 创建 服务 时 ,可 根据 平台 用 户 与 数据 
集 提交 规模 选择 相应 的 元 数据 质量 控制 机 制 :规模 较 
小 的 数据 仓储 可 配置 相应 比例 的 数据 馆 员 进行 人 工 审 
核 ;用 户 规模 与 数据 集 提交 规模 较 大 的 数据 仓储 可 采 
自动 控制 为 主人 工 审核 为 辅 的 质量 控制 机 制 , 即 开 
发 相应 的 软件 工具 对 数据 集 元 数据 形式 与 内 容 进 行 初 
步 审核 ,并 配置 智能 元 数据 评估 系统 完成 对 元 数据 质 
量 的 初步 评估 ,数据 馆 员 有 针对 性 地 对 初步 审核 与 评 
佑 中 存在 问题 的 数据 集 元 数据 进行 二 次 审核 并 给 出 具 
体 的 补充 说 明 与 改进 建议 。 


8 结语 


本 研究 通过 网 络 调研 法 并 结合 文献 调研 ,从 服务 
的 内 容 构成 与 服务 的 实现 模式 两 个 方面 对 当前 国际 上 
影响 力 较 大 的 6 个 综合 型 科学 数据 仓储 所 提供 的 元 数 
据 创建 服务 进行 分 析 , 总 结 出 其 元 数据 创建 服务 沿袭 
传统 并 有 所 创新 力求 简洁 并 凸显 自身 特色 ,重视 元 数 
据 知 识 普 及 与 能 力 转 化 .充分 保证 数据 民主 ,注重 关联 
资源 组 织 并 鼓励 数据 引用 五 大 特点 ,并 为 我 国 图 情 机 
构 数据 仓储 建设 及 元 数据 创建 服务 开展 给 出 具体 参考 
建议 与 改进 方法 。 

当前 我 国正 在 积极 制定 《数据 论文 出 版 元 数据 》 


a 


y 


专项 机 制 。 未 来 我 国 图 情 机 构 可 将 科学 数据 的 元 数 
据 创 建 服务 .DMP 撰写 服务 .数据 仓储 的 数据 提交 与 
存储 服务 相 融 合 以 充分 发 挥 科学 数据 元 数据 创建 服 
务 在 科研 生命 周期 中 的 作用 ,可 在 数据 收集 前 期 通 
过 元 数据 创建 服务 为 DMP 提供 项 目 或 基金 申请 所 需 


国家 标准 ,所 选 6 个 仓储 作为 数据 出 版 的 国际 平 
台 ,其 元 数据 创建 服务 体现 了 元 数据 标准 典型 应 用 场 
景 ,未 来 在 制定 标准 时 也 可 适当 吸收 借鉴 综合 型 科学 
数据 仓储 在 元 数据 元 素 选择 .元素 与 值 的 设置 方面 的 
相关 做 法 。 
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Abstract; | Purpose/significance | The lack of research data metadata knowledge and efficient easy-to-use 
metadata creation services hinder the sharing and reuse of research data among researchers. Due to the large amount 
and wide user orientation of the generalist research data repository, the metadata creation service provided by it has 
references for improving the above dilemmas. | Method/process | Taking six generalist research data repositories 
recommended by Springer Nature and Scientific Data as samples, this paper investigated and analyzed their metadata 
creation services from two aspects of the service content composition and the service implementation mode, then sum- 
marized their service characteristics and advanced experiences. | Result/conclusion | The metadata creation service 
provided by the generalist research data repository has five characteristics of following the tradition but has some inno- 
vations , striving for simplicity and highlighting its own characteristics, paying attention to the popularization of meta- 
ydata knowledge and ability transformation, fully ensuring data democracy, paying attention to the organization of re- 
,lated resources and encouraging data reference. Its service model not only pays attention to the ease and usefulness of 
(@ivice but also taking account of the popularization of metadata knowledge, above which have important enlighten- 
ent and references for the research data repository construction and metadata creation service design for library and 

@mformation community in China. 
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